BiTrajDiff: Generación de Trayectorias Bidireccionales con Modelos de Difusión para Aprendizaje por Refuerzo Fuera de Línea
BiTrajDiff combina trayectorias bidireccionales y modelos de difusión para mejorar el aprendizaje por refuerzo offline. Descubre cómo esta técnica optimiza la generación de políticas en entornos sin interacción directa.